Day25. FastQC--2

2023 iThome 鐵人賽

DAY 25

AI & Data

生資的路且重且遠，我要被鴨垮了Q系列第 25 篇

15th鐵人賽

桃熊

2023-10-10 13:53:59

880 瀏覽

分享至

分析結果

圖表化的fastqc報告

Summary

整個報告的目錄，合格會有個綠色的對勾，警告WARN是個" ! "，不合格FAIL是個紅色的叉叉。

Basic Statistics

Encoding指測序平台的版本和相應的編碼版本號，這個在計算Phred反推error P的時候有用(Illumina1.9 就是 Phred+33，很重要，1.8以上即為Phred33編碼)

Total sequences: reads數量

Sequence length: 測序長度

%GC(GC含量)：重點關注，可以幫助區別物種，人類42%左右

Per base sequence quality
- 質量高：鹼基質量值都基本都在大於30(質量值的分佈都在綠色背景)，而且波動很小，說明質量很穩定
- 縱軸是質量得分，Q = -10*log10（error P）即20表示1%的錯誤率，30表示0.1%
- 一般要求此圖中，所有位置的10%分位數大於20,也就是我們常說的Q20過濾
- 圖中藍色的細線是各個位置的平均值的連線

做read質量值分析的時候，FastQC並不單獨查看具體某一條read中鹼基的質量值，而是將Fastq文件中所有的read數據都綜合起來一起分析。

下圖是read各位置鹼基質量分佈圖

這個圖的橫軸是read上鹼基的位置，縱軸是鹼基質量值。在這個例子中，read的長度是32-301 bp，這應該算是比較長的二代測序序列了。

我們可以看到read上的每一個位置都有一個黃色的箱型圖表示在該位置上所有鹼基的質量分佈情況，在這個圖中我們可以明顯看到，read各個位置上的鹼基質量分佈波動都比較大，特別從第210左右個鹼基往後全部出現了大幅度的波動，而且一些read的鹼基質量值(看黃色箱子)都掉到非常低（紅色）的區域中了，說明這個數據的測序結果中等，有著一些不及格的read。

當然想要最好質量的情況是重新測序，但如果使用這個數據，就要把這些低質量的數據全都去除掉才行，同時還需留意是否還存在其他的問題，但不管如何都一定會丟掉一部分的數據。

Per sequence quality scores
- 該圖橫軸是0-36，表示Q值
- 縱軸是每個值對應的reads數目

鹼基總體質量值分佈，只要大部分都高於20，那麼就比較正常。

關於Q20和Q30的比例是我們衡量測序質量的一個重要指標。這其實也是從這裡來進行體現，一般來說，對於二代測序，最好是達到Q20的鹼基要在95%以上（最差不低於90%），Q30要求大於85%（最差也不要低於80%）

Per base sequence content

read各個位置上鹼基比例分佈，為了分析鹼基的分離程度。

我們知道AT配對，CG配對，假如測序過程是比較隨機的話（隨機意味著好），那麼在每個位置上A和T比例應該差不多，C和G的比例也應該差不多，如圖所示，兩者之間即使有偏差也不應該太大，最好平均在1%以內，如果過高，除非有合理的原因，比如某些特定的捕獲測序所致，否則都需要注意是不是測序過程有什麼偏差。

Per sequence GC content
- 藍色的線是程序根據經驗分佈給出的理論值，紅色是真實值，兩個應該比較接近才比較好
- 當紅色的線出現雙峰，基本肯定是混入了其他物種的DNA序列

二代定序平台或多或少都存在一定的測序偏向性，我們可以通過查看這個值來協助判斷測序過程是否足夠隨機。對於人類來說，基因組的GC含量一般在40%左右。因此，如果發現GC含量的圖譜明顯偏離這個值那麼說明測序過程存在較高的序列偏向性，結果就是基因組中某些特定區域被反複測序的機率高於平均水平，除了覆蓋度會有偏離之後，將會影響下游的變異檢測和CNV分析。